www.gusucode.com > 落叶冰点万能企业网站内容管理系统 V9.1 > 落叶冰点万能企业网站内容管理系统 V9.1\code\admin\adminCollection\Admin_ItemHelp.asp
<%@language=vbscript codepage=936 %> <html> <head> <title>新闻采集系统</title> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> <link href="Admin_Style.css" rel="stylesheet" type="text/css"> </head> <body leftmargin="0" topmargin="0" marginwidth="0" marginheight="0"> <table width="100%" border="0" align="center" cellpadding="0" cellspacing="1" Class="border" > <tr> <td height="22" align="center" colspan="2" class="topbg" ><b><a name="#top"> </a>新闻采集系统使用帮助</b></td> </tr> </table> <table width="100%" border="0" align="center" cellpadding="0" cellspacing="1" Class="border"> <tr> <td height="40" align="center" class="tdbg"> <strong> 因本系统占服务器资源比较大,如果您要 进行长时间的采集,推荐在本机采集后,将数据库上传到服务器进行导入操作。</strong><p> </td> </tr> <tr> <td height="25" class="topbg"><strong>一、使用指南-----属性设置</strong></td> </tr> <tr> <td height="40" align="left" class="tdbg"><b><span lang="en-us">1</span>、文章属性:</b><p> <span lang="zh-cn">立即发布:不需要审核,即可通过前台直接访问。</span></p> <p><span lang="zh-cn">包含图片:</span>选中的话,如果采集的新闻正文中有图片,则会在标题前面显示[图文],默认选中。</p> <p>首页图片:选中的话,如果采集的新闻正文中有图片,则会将检索到的第一张图片设为本新闻的首页图片,默认选中。</p> <p>其它选项:略<span lang="en-us">........</span></p> <p> <b> <span lang="en-us">2</span>、<span lang="zh-cn">标签</span>过滤选项:</b></p> <p> 这里是常见的<span lang="en-us">要过滤的html</span>标签。</p> <p> 广告过滤:如果没有选择,那么过滤设置中的过滤将不起作用,下一版中将去掉。</p> IFRAME<span lang="zh-cn">:如</span>--<IFRAME SRC="<span lang="zh-cn">广告地址</span>"><span lang="zh-cn">,比较常见的广告代码。</span><p> OBJECT<span lang="zh-cn">:如</span>--<Object <span lang="zh-cn">代码</span>><span lang="zh-cn">代码</span></Object>,注意--<span lang="zh-cn">有些正文中有</span>Flash<span lang="zh-cn">动画、又有这个广告代码,此时推荐使用过滤功能。</span></p> <p>SCRIPT <span lang="zh-cn">:如</span>--<SCRIPT LANGUAGE="JavaScript1.1" SRC="<span lang="zh-cn">广告地址</span>"></SCRIPT><span lang="zh-cn">,常见的广告代码。</span></p> <p>FONT<span lang="zh-cn"> </span> <span lang="zh-cn"> :如</span>--<font style="font-size:12px;line-height:150%;"><span lang="zh-cn">,常用于去掉文字的大小、颜色等属性。</span></p> <p>A <span lang="zh-cn">:如</span>--<a href="http://pic.scuta.net"><span lang="zh-cn">查看更多图片</span></a><span lang="zh-cn">,常用于去掉文字、图片上的链接,但不会去掉“查看更多图片”。</span></p> <p><b>3<span lang="zh-cn">、采集选项:</span></b></p> <p><span lang="zh-cn">保存文件:选中的话,如正文中有图片则会将图片保存到服务器上。</span></p> <p><span lang="zh-cn">倒序采集:从最下面一条新闻开始向上采集,新闻一般都是最早发布的在下面,最新发布的在上面。</span></p> <p><span lang="zh-cn">测试采集:只作测试,采集的结果不录入数据库,也不会产生历史记录。</span></p> <p><span lang="zh-cn">正文预览:在采集过程中可预览正文,如果是入库采集则只显示前200个字符,有图片时可能会造成图片无法显示。</span></td> </tr> <tr> <td height="25" class="topbg"><strong>二、使用指南-----项目管理</strong></td> </tr> <tr> <td height="40" align="left" class="tdbg"><b><span lang="en-us">1</span>、添加项目:</b><p> (1)基本设置</p> <p><span lang="en-us"> </span> 项目名称:起个看一眼就明白的名称,如:IT世界<span lang="en-us">-</span>业界新闻(来自IT世界的业界新闻)。</p> <p><span lang="en-us"> </span> 所属栏目:采集的新闻属于哪个栏目。 </p> <p><span lang="en-us"> </span> 所属专题:采集的新闻属于哪个专题。</p> <p><span lang="en-us"> </span> 网站名称:要采集的新闻是哪个网站的。</p> <p><span lang="en-us"> </span> 网站网址:该网站的网址。</p> <p><span lang="en-us"> </span> 网站登录:需要登录才能访问的请设置登录参数(不支持验证码登录)</p> <p><span lang="en-us"> </span> 登录地址:就是它的网址。</p> <p><span lang="en-us"> </span> 提交地址:点击<span lang="en-us"> </span><b>登录</b><span lang="en-us"> </span> 按钮后用来验证用户名、密码的文件网址,如动力<span lang="en-us">3.62</span>的</p> <p><span lang="en-us"> </span>是<span lang="en-us"> <a href="http://www.****.com/Admin_ChkLogin.asp"> http://www.****.com/</a></span><a href="http://www.****.com/Admin_ChkLogin.asp">Admin_ChkLogin.asp</a>。</p> <p><span lang="en-us"> </span> 用户(密码)参数:查看登录表单源码,找到形如下面之类的代码</p> <p><span lang="en-us"> </span>用户名:<input type="text" name<span lang="en-us">="<font color="#FF0000">UserName</font>" value=""></span></p> <p><span lang="en-us"> </span>密码:<input type="<span lang="en-us">password</span>" name<span lang="en-us">="<font color="#FF0000">Password</font>" value=""></span></p> <p><span lang="en-us"> </span>用户参数就是<span lang="en-us">--</span>第一行的<span lang="en-us">name=</span>后面的<span lang="en-us">UserName</span></p> <p><span lang="en-us"> </span>密码参数就是<span lang="en-us">--</span>第二行的<span lang="en-us">name=</span>后面的<span lang="en-us">Password</span></p> <p><span lang="en-us"> </span>最后组合起来就是:用户参数:<input type="text" name="UserName" value="UserName=你的用户名" size="23"></p> <p> <span lang="zh-cn">密码参数:<input type="text" name="UserName" value="Password=你的密码" size="23"></span><p> <span lang="zh-cn"> </span> PS:<span lang="zh-cn">上面提到的 提交地址 也在这里找,在附近找到形如</span>--<form name="form1"<p> post="<a href="http://www.****.com/Admin_ChkLogin.asp"><font color="#FF0000">Admin_ChkLogin.asp</font></a>"><span lang="zh-cn">之类的代码,在这个</span> post=<span lang="zh-cn">的后面就是提交的地址,</span><p> <span lang="zh-cn">一般它是采用相对地址,请注意。</span><p> <span lang="zh-cn"> 失败信息:用户名或者密码不正确时,登录后的失败提示信息,用于判断登录是否成功的一个标志,请一定要填写,否则不能采集,比</span><p> <span lang="zh-cn">如:您输入的用户名或密码不正确,请重新输入!</span><p> <span lang="zh-cn">项目备注:</span>该项目的其它要记录的信息,比如--<span lang="zh-cn">IT世界的新闻好好哦,以后每天都要采它</span>~<p> <span lang="zh-cn">(2)列表设置</span><p> <span lang="zh-cn">列表:</span><p><span lang="en-us"> </span><span lang="zh-cn"> 书一般都有目录吧?列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。</span><p> <span lang="zh-cn">列表索引页面:</span><p><span lang="en-us"> </span><span lang="zh-cn"> 你要开始采集的列表页。</span><p> 列表开始/结束标记:<p><span lang="en-us"> </span>平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始<span lang="en-us">/</span>结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。<br> <span lang="zh-cn">比如这是某一列表页面的主要部分代码:</span><br> <span lang="en-us"> <font color="#FF0000"><table width="98%" border="0" cellspacing="0" cellpadding="3"></font></span><span lang="en-us"><font color="#FF0000"><br> <tr> <br> <td align="left" valign="top"><br></font><br> <a href="News.asp?id=1" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br> <br><span lang="en-us"> <a href="News.asp?id=2" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br><br> ....<span lang="zh-cn">省略</span><br> <span lang="en-us"> <a href="News.asp?id=50" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br> <font color="#FF0000"></td></font><font color="#FF0000"><br> </tr><br> </table></font><br><font color="#FF0000"> <span lang="en-us"> </span></font>红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。<p> <span lang="zh-cn">列表索引分页:</span><p><span lang="zh-cn"> </span>(1)<span lang="zh-cn">设置标签</span><br> <span lang="zh-cn">列表索引页的部分代码如下:</span><br> <td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A><font color="#FF0000"><a href="</font>index_2.html<font color="#FF0000">">下一页</a> </font><br> <a href="index_4.html">尾页</a> </td><br> <span lang="zh-cn">红色部分为分页开始</span>/<span lang="zh-cn">结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:</span><A HREF="<span lang="zh-cn">和</span>">2</A><span lang="zh-cn">,这就错了,怎么错了自己想想。</span><p> 索引分页重定向:参考链接设置<p> (2)<span lang="zh-cn">批量生成</span><br> <span lang="zh-cn"> 如有些列表是这种形式:</span><br><span lang="zh-cn"> 第一页<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_1.html</a></span><br> <span lang="zh-cn"> 第二页<a href="http://www.it.com.cn/news/cyxw/yejie/index_2.html">http://www.it.com.cn/news/cyxw/yejie/index_</a></span><a href="http://www.it.com.cn/news/cyxw/yejie/index_2.html">2<span lang="zh-cn">.html</span></a><br> <span lang="zh-cn"> 第三页<a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">http://www.it.com.cn/news/cyxw/yejie/index_</a></span><a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">3<span lang="zh-cn">.html</span></a><p> 那么可以这设置:<span lang="en-us">{$ID}</span>是必须的<p> 原字符串:<a href="http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html">http://www.it.com.cn/news/cyxw/yejie/index_<span lang="en-us">{$ID}</span>.html</a><p> 生成范围:<span lang="en-us">1--3</span><p> 结果程序会生成:<a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_1.html</a><p> <a href="http://www.it.com.cn/news/cyxw/yejie/index_1.html">http://www.it.com.cn/news/cyxw/yejie/index_<span lang="en-us">2</span>.html</a><p> <a href="http://www.it.com.cn/news/cyxw/yejie/index_3.html">http://www.it.com.cn/news/cyxw/yejie/index_<span lang="en-us">3</span>.html</a><p> 这样的几个列表页面<p> <span lang="en-us">(3)</span>手动添加<p> 输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。<p> <span lang="zh-cn">(3)链接设置</span><p> 链接开始<span lang="en-us">/</span>结束标记:<p> 这里没设置好采集过程中可能会路途停止<p> 部分代码<p> <span lang="en-us"> <table width="98%" border="0" cellspacing="0" cellpadding="3"><br> <tr> <br> <td align="left" valign="top"><br><br> <a href="List.asp?type=</span>IT新闻<span lang="en-us">">[IT</span>新闻<span lang="en-us">]<font color="#FF0000"></a><a href=</font>"New.asp?id=1"<font color="#FF0000"> target=</font>_blank></span><span lang="zh-cn">新闻标题</span></a> <br><span lang="en-us"> <a href="List.asp?type=Pc</span>新闻<span lang="en-us">">[Pc</span>新闻<span lang="en-us">]</a><a href="New.asp?id=2" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br> ....<span lang="zh-cn">省略</span><br> <span lang="en-us"> <a href="List.asp?type=</span>IT新闻<span lang="en-us">">[IT</span>新闻<span lang="en-us">]</a><a href="New.asp?id=50" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br> </td><br> </tr><br> </table><br> 红色部分为链接开始<span lang="en-us">/</span>结束标记,<font color="#FF0000">注意</font>:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、P<span lang="en-us">c</span>新闻一样)的,开始标记必须往前延伸,我以前做的<span lang="en-us">3.62</span>版的录像中开始标记是<span lang="en-us"><font color="#FF0000">href=</font></span>,这个只能用于新闻标题前面没有栏目链接的情况。<p> 链接的重新定位:<p> 如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:<p> <span lang="en-us"> <a href="Javascript:window.open<font color="#FF0000">('</font>1<font color="#FF0000">')</font>" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br> <br><span lang="en-us"> <a href="Javascript:window.open('5')" target=_blank></span><span lang="zh-cn">新闻标题</span></a><br><br> ....<span lang="zh-cn">省略</span><br> <span lang="en-us"> <a href="Javascript:window.open('50')" target=_blank></span><span lang="zh-cn">新闻标题</span></a><p> 把开始<span lang="en-us">/</span>结束标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,<span lang="en-us">http://www.scuta.net/news.asp?id=1</span>,那么绝对链接就设置为<a href="http://www.scuta.net/news.asp?id={$ID}就成了"><span lang="en-us">http://www.scuta.net/news.asp?id=<font color="#FF0000">{$ID}</font></span>就成了</a>。<p> (4)正文设置<p> 标题、正文、作者、来源、关键字及正文分页设置同上,不想重复,这里就不说了。<p> (5)采样测试<p> 正确采样后完成添加操作。 <p> </td> </tr> <tr> <td height="25" class="topbg"><strong>三、使用指南-----过滤设置</strong></td> </tr> <tr> <td height="40" align="left" class="tdbg"> 过滤有简单替换和高级过滤(相对简单替换)<p>(1)简单替换</p> <p> 把一段字符替换为另一段字符,比如</p> <p> 想把所有的<span lang="en-us"> <font color="#FF0000">(</font></span><font color="#FF0000">图</font><span lang="en-us"><font color="#FF0000">)</font> </span>字符替换为<span lang="en-us"> </span>空</p> <p> 内容:<span lang="en-us">(</span>图<span lang="en-us">)</span></p> <p> 替换:留空</p> <p>(2)高级过滤</p> <p> 比如正文中有这样的代码:</p> <p> <font color="#FF0000"><iframe</font> src="http://www.17173.com/if/top-new1.html" name="contentFRM" id="contentFRM" scrolling="no" width="326" height="350" marginwidth="0" marginheight="0" frameborder="0" align="left"><font color="#FF0000"></iframe></font></p> <p> 大家都知道这应该是广告代码吧,想把它过滤掉不要它了,可以这样:</p> <p> 开始标记:<iframe</p> <p> 结束标记:</iframe> </p> <p> 注:像这种代码也可以使用 过滤选项 中的 <span lang="en-us">IFRAME</span>选项 ,如果代码复杂还是推荐使用上面的这各方法。<br> </td> </tr> <tr> <td height="25" class="topbg"><strong>四、使用指南-----</strong><b>历史记录</b></td> </tr> <tr> <td height="40" align="left" class="tdbg"> 历史记录,记录的是所采集过的新闻网址,保留着该新闻的采集状态,也是判断一条新闻是否重复采集的重要依据。<p><span lang="en-us"> </span>成功记录:成功采集并保存到数据库中。</p> <p><span lang="en-us"> </span> 失败记录:采集失败,但数据库中没有相关新闻。</p> <p><span lang="en-us"> </span> 失效记录:数据库中已删除该新闻(不包括失败记录)</td> </tr> <tr> <td height="25" class="topbg"><strong>六、使用指南-----数据库管理</strong></td> </tr> <tr> <td height="40" align="left" class="tdbg"><span lang="en-us"> </span>见<a href="Admin_ItemDatabase.asp"><u>数据库管理</u></a>首页</td> </tr> </table> <!--#include file="Admin_ItemFoot.asp"--> </body> </html>